#optimización de gpu

FlashMemory-DeepSeek-V4: Índice Relámpago para Contexto Ultra-Largo

FlashMemory-DeepSeek-V4 comprime el caché KV al 13.5% usando Atención Dispersa Anticipada. Mejora tu inferencia de LLMs sin sacrificar precisión. ¡Conoce más!

2026-06-16 · 2 min

Mi GPU dejó de comer aire: backend en C++ para LLM

Descubre cómo optimizar la inferencia de LLM eliminando el padding con un backend en C++ y sequence packing. Mejora el rendimiento de tu GPU.

2026-06-03 · 2 min